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摘 要 : [目的 /意义 ] 为 有 效 探测 科技 文献 中 潜在 的 研究 热点 ,研究 文献 中 关键 词 突 发 的 特征 条 件 , 构 建 突 发 词 识别 模型 
对 促进 科研 人 员 精 确 把 握 研究 方向 具有 重要 意义 。|[ 方 法 /过 程 ] 获取 各 年 度 内 关键 词 及 词 频 ,构建 关键 词 -年 
度 和 矩阵 ,将 分 析 时 间 段 划分 为 标准 窗口 .观察 窗口 和 表现 窗口 ,在 观察 窗口 内 利用 多 测度 突 发 词 探测 模型 识别 具 
有 突 发 特征 的 关键 词 ;在 表现 窗口 内 利用 LDA 挖掘 主题 词汇 作为 热点 词 集合 。 设 计 突 发 词 履 盖 率 指标 ,辅助 滑动 
时 间 窗 口 法 ,计算 不 同时 间 窗 口内 突 发 词 集合 和 热点 词 集合 的 鹤 盖 率 , 验 证 模型 识别 准确 性 。[ 结果 /结论 ] 3 次 
滑动 时 间 窗 口 ,计算 得 到 3 次 突 发 词尾 盖 率 都 在 70% 以 上 ;与 Citespace 突 发 词 的 对 照 试验 中 ,本 模型 3 次 履 盖 率 


均 大 于 前 者 ,表明 设计 的 突 发 词 探测 模型 性 能 良好 。 
滑动 时 间 窗 口 多 测度 LDA 主题 挖 握 


词 : 突 发 词 探测 
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(1) 基 于 词 频 增长 率 进 行 突 发 词 识别 。 典 型 代表 


人 


入 突 发 词 是 指 词 频 量 较 低 但 增长 势头 不 断 增 强 的 关 
键 词 , 表 明 该 关键 词 在 学 科 领 域 受到 越 来 越 多 的 学 者 
关注 ,未 来 发 展 为 研究 热点 概率 较 大。 事物 发 展 遵循 
基 乘 的 生命 周期 理论 ,关键 词 也 不 例外 ,在 科学 传播 过 
稳 叫 ,关键 词 发 展 大 致 可 以 分 为 萌芽 期 .发 展期 .成 熟 
期 "衰退 期 4 个 阶段 上 。 关 键 词 作为 期 刊 论文 主题 核 
心 慨 念 的 集中 体现 ,一 定 程度 上 揭示 了 论文 研究 内 容 
和 研究 主题 。 将 关键 词 作为 学 科 领 域 突 发 词 探 测 分 析 
对 象 ,在 萌芽 期 提前 识别 出 具有 突 发 特性 的 关键 词 ,有 
利于 学 者 把 握 学 科研 究 趋势 ,确定 未 来 研究 热点 。 突 
发 词 探测 是 国内 外 信息 计量 学 研究 领域 的 重要 问题 ， 
具有 丰富 的 研究 成 果 , 在 网 络 社交 媒体 中 , 突 发 话题 控 
测 表现 尤为 突出 。 与 以 往 突 发 词 探 测 研 究 成 果 不 同 ， 
本 研究 依据 科技 文献 突 发 词 多 维度 特征 ,设计 突 发 词 
探测 模型 ,辅助 滑动 时 间 窗 口 对 结果 进行 验证 ,并 与 
Citespace 突 发 词 探 测 结果 对 照 。 


2 相关 研究 
目前 国内 外 突 发 词 探测 研究 方法 大 体 分 成 三 大 类 : 


是 J Kleinberg 提出 的 突 发 监测 算法 (burst detection al- 
gorithm , BDA)" ,该 算法 认为 词 的 重要 性 不 是 词 出 现 
的 时 间 长 短 ,而 是 词 出 现时 的 密度 , 即 那 些 词 频 相 对 增 
长 率 突然 增加 的 词 是 突 发 词 。 国 内 外 学 者 基于 BDA 
做 了 大 量 研究 ,并 取得 了 阶段 性 成 果 。C. M. Chen™” 
基于 BDA 开发 Citespace ,对 突 发 词 探测 进行 可 视 化 分 
析 ,为 科研 工作 者 提供 简单 易 操 作 的 主题 探测 及 演化 
分 析 工 具 ”” 。 唐 晓 彬 等 认为 Kleinberg 使 用 Viterbi 算 
法 仅 根据 10 条 是 否 处 于 异常 状态 信息 来 判断 异常 事 
件 的 发 生 是 不 合理 的 ,BDA 会 将 信息 频次 随时 间 缓 慢 
变化 的 状态 , 误 判 为 有 突 发 异常 发 生 , 针 对 上 述 缺 陷 做 
出 BDA 改进 算法 ,并 成 功 探测 到 微 博 突 发 事件 。 卓 
可 秋 等 认为 当 文 本 流 无 法 一 次 载 人 内 存 时 , 串 行 计 算 
和 多 线程 单机 模式 无 法 在 较 短 的 时 间 内 完成 突 发 事件 
的 检测 ,因此 提出 MapReduce 分 布 式 处 理 框 架 解决 大 
数据 问题 ,利用 BDA 和 LDA 在 新 闻 数 据 集 得 到 较 好 的 
实验 结果 。 

(2) 基 于 突 发 词 多 特征 融合 进行 突 发 词 识 别 。 典 
型 代表 是 陈 国 兰 采用 相对 词 频 、 词 频 增 长 率 和 爆发 词 
权重 3 个 指标 识别 微 博文 本 的 突 发 词 ,利用 共 词 分 析 
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隶 万 辉 等 认为 单个 词语 不 能 表达 完整 的 语义 信息 , 需 
要 从 领 ee 页 域 知 识 的 演变 ,因此 在 构建 
术语 特征 词 库 后 ,采用 频次 ,频率 和 词 频 文档 比 3 个 指 
标 成 功 地 识别 出 镍 钴 产业 专利 文本 中 的 突 发 词 ”; 介 
飞 等 认为 单一 使 用 文本 特征 (关键 词 ) 或 社交 行为 ( 评 
论点 赞 转 发 ) 特 征 都 会 造成 社交 网 络 中 隐 式 突 发 事 
件 的 漏 检 , 将 关键 词 特征 和 行为 特征 得 到 的 突 发 性 结 
果 进 行 关 联 ,有 效 识 别 出 对 比 实 验 中 的 隐 式 突 发 事 
件 '” ;WXie 等 采用 Tweet 总 数 、 词 频 、 词 对 频次 3 个 
指标 识别 Twitter 中 的 突 发 主题 ,以 加 速度 的 计算 方式 


确 度 , 而 且 适 合 科技 文献 按 年 度 划 分 时 间 窗 的 数据 类 
型 ,但 模型 设计 具有 主观 性 ,识别 结果 不 易 验 证 ;第 
类 方法 并 未 在 学 界 广泛 使 用 ,其 科学 性 有 待 验证 。 
书 突 发 词 识别 对 象 多 为 微 博 短文 本 、 新 闻 数 据 、 专 利文 
献 , 对 科技 文献 类 数据 应 用 不 多 。@@ 研 究 成 果 并 未 涉及 
结果 验证 , 即 探测 出 的 突 发 词 是 否 真 为 后 续 的 热点 。 

经 过 上 述 分 析 , 本 研究 借助 第 二 类 突 发 词 探 测 方 
法 基本 思想 ,在 相对 词 频 和 词 频 增长 率 两 个 通用 计量 
指标 基础 上 ,增加 词 频 热 度 权 重 指 标 , 反 映 该 关键 词 在 
论文 标题 中 出 现 的 频繁 程度 。 其 中 文献 [8 ] 的 思想 对 
本 研究 启发 较 大 ,但 本 研究 与 其 对 比 有 四 点 明显 区 别 : 


及 时 反映 突 发 ,但 该 模型 可 能 会 忽略 短期 内 不 显现 突 
发 的 主题 "1。 

二 (3) 借鉴 其 他 学 科 理 论 改 进 突 发 词 探测 方法 。 王 
入 和 合 信息 炳 变化 原理 ,通过 观察 数据 集合 加 入 数 
的 而 后 的 粹 值 变 化 判断 数据 的 突 发 程度 ,成 功 解决 主 
题 济 化 发 展 阶段 按照 2 年 .5 年 或 10 年 为 单位 来 划分 
演 艇 过 程 是 主观 且 不 合理 的 缺陷 ; 王 征 等 认为 关键 
词 晤 科技 期 刊 中 承载 各 类 科技 概念 的 最 小 单位 ,基于 
强 谱 密度 理论 和 灰色 关联 理论 提出 SRHM 模型 ,其 
辐 en ea ei 
对 3 发 词 识别 结果 做 出 展 1; 张 金 柱 等 认为 主题 在 
村 生 民 认 的 相似 度 或 关联 朗 计算 是 主题 演变 及 
变 驴 别 的 核心 ,而 点 相似 度 和 关系 相似 度 忽 略 了 网 络 
输 打 结构 ,不适 于 实际 网 络 , 因 此 综合 考虑 节点 数量 和 
重 宕 程度 并 结合 战略 坐标 图 ,成 功 在 Wos 数据 集 基因 
编辑 领域 探测 出 主题 演化 进程 及 突变 主题 "" ; 姜 奢 等 
认 毛 小 样本 数据 的 关键 词 词 频 较 低 且 波动 较 大 ,通过 
计算 词 频 的 Z 分 数 和 移动 平均 值 反 映 变化 趋势 并 不 合 
适 ,因此 通过 对 数 似 然 值 反映 关键 词 词 频 变 化 的 显著 
性 程度 ,由 于 消除 了 不 同时 段 科研 产 出 波动 对 关键 词 
变化 趋势 的 影响 ,该 方法 成 功 识别 出 科学 数据 领域 基 
于 突 发 词汇 的 主题 演变 过 程 ”。 随 着 深度 学 习 技 术 
的 广泛 应 用 ,有 学 者 开始 通过 深度 神经 网 络 探测 突 发 
词 ,如 LL， Shi 等 针对 微 博 、Facebook 等 社交 网 络 数 据 提 
出 一 个 稀 政 主题 模型 (STRM) ,利用 RNN 学 习 单词 和 
IDF 之 间 的 内 在 关系 来 测量 高 频 词 ,模型 针对 词汇 多 
样 性 区 分 突 发 话题 和 公共 话题 "。 

现 有 研究 成 果 存在 如 下 几 个 问题 :四 突 发 词 探测 
方法 各 有 不 足 。 第 一 类 方法 针对 快速 流通 的 数据 流 如 
微 博 具有 较 好 的 识别 效果 ,但 相 比 于 流通 速度 较 慢 的 
期 刊 文献 不 适用 ;第 二 类 方法 ,从 突 发 词 自身 特征 出 发 
设置 识别 条 件 更 具有 针对 性 ,可 以 提高 突 发 词 识别 精 


QD 研究 对 象 不 同 :前 者 使 用 微 博 短文 本 ,本 文 使 用 科技 
文献 题 录 信息 ;@) 第 三 个 指标 选取 不 同 :前 者 使 用 TF- 
IDF 计算 爆发 词 权重 , 本文 使 用 词 频 热度 权重 计算 突 
发 词 权 重 ;@ 研 究 目的 不 同 :前 者 使 用 k-means 聚 类 方 
法 识别 微 博 突 发 事件 ,本 文 使 用 LDA 挖掘 主题 词 , 验 
证 科技 文献 突 发 词 识别 效果 ,发 现 科技 文献 的 研究 热 
点 ;由 验证 工作 不 同 : 前 者 无 验证 ,本 文 设 计 基 于 时 间 
滑动 窗口 的 验证 方法 。 因 此 ,本 文 融合 上 述 3 个 特征 
指标 ,设计 突 发 词 探测 模型 并 提出 覆盖 率 判 别 指标 和 
滑动 窗口 方法 验证 模型 效果 。 


3 ”构建 突 发 词 探测 与 验证 模型 


根据 前 面 对 突 发 词 本 质 特性 及 探测 方法 分 析 , 设 
计 突 发 词 探 测 模型 。 具 体 步 又 如 下 : 
3.1 Stepl: 获取 中 频 词 ,构建 关键 词 -年度 矩 阵 
词 频 高 低 反 映 其 表征 的 主题 特征 重要 程度 , 现 有 
成 果 在 确定 高 频 词 和 高 频 词 选取 数量 等 方面 还 未 达成 
II lm 
究 者 经 验 ;二 是 结合 齐 普 夫 第 二 定律 判断 ”。 由 于 突 
发 词 本 身 的 性 质 决定 其 词 频 量 不 应 该 为 限定 时 间 段 内 
的 高 频 词 汇 ,而 通过 齐 普 夫 第 二 定律 判断 高 频 词 虽然 
可 避免 主观 性 ,但 设 定 词 频 过 高 ,导致 中 频 词 范围 过 
大 ,从 而 包含 部 分 通用 的 词汇 ,此 类 词汇 不 属于 突 发 词 
0 因此 ,本 研究 依据 图 情 领 域 词汇 实际 应 用 
场景 ,划分 高 频 .中 频 和 低频 词 , 同 时 该 思想 推广 到 其 
领域 时 ,应 结合 具体 的 学 科 特 点 划分 高 中 低 词 频 。 
根据 上 述 理论 ,本 研究 所 指 高 频 关 键 词 是 在 时 间 段 内 
总 词 频 大 , 排 在 前 N 位 的 关键 词 ,表明 其 所 体现 的 主题 
已 被 学 者 广泛 传播 使 用 ,是 处 于 成 熟 期 的 学 科 基 础 词 
汇 。 低 频 关 键 词 指 在 时 间 段 内 总 词 频 很 小 的 关键 词 
(本 文 设 置 为 总 词 频 1 或 2 的 关键 词 ) ,表明 其 目前 只 
是 被 极 少数 学 者 关注 ,未 达到 广泛 关注 程度 , 它 不 满足 
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本 文 后 续 突 发 词 量变 需要 。 中 频 关键 词 指 在 时 间 段 内 
总 词 频 达 到 一 定量 的 关键 词 (本 文 设置 为 大 于 2 且 小 
于 高 频 关 键 词 频次 阔 值 的 关键 词 ) 。 不 同 领域 的 学 
科 基 础 词汇 是 不 同 的 ,根据 学 科 通 识 可 定义 本 学 科 
的 基础 词汇 。 对 比分 析 发 现 ,中 频 关 键 词 是 最 具有 
研究 意义 的 突 发 词 探测 对 象 ,基于 中 频 关 键 词 探测 
突 发 词 可 以 避免 热点 关键 词 , 同 时 满足 突 发 量变 需 
要 。 具 体 来 说 ,本 研究 定义 的 高 .中 、 低 词 频 范围 ,如 
表 1 所 示 : 


表 1 词 频 范围 划分 


词 频 类 型 词 频 范围 ( 某 时 间 段 内 ) 

高 频 词 词 频 > N(N 的 取 值 依据 学 科 常识 ) 
中 频 词 2 < 词 频 < N 

低频 词 词 频 < 3 


局 6BK 键 词 扩 年 度 采集 ,统计 其 词 频 ,并 进行 同 义 
证 近义词 合并 以 及 虚词 去 除 等 处 理 , 按 照 词 频 大 小 排 
岸 沁 若 某 个 词 连续 多 年 排名 靠 前 , 则 认为 其 是 专业 基 


3.2 Step2: 设置 分 析 时 间 窗 口 

在 关键 词 -年度 词 频 和 矩阵 中 ,为 验证 模型 在 不 同 
样本 矩阵 中 识别 突 发 词 的 稳定 性 ,依据 时 间 维 度 将 分 
析 时 间 段 划分 为 天 个 样本 矩阵 ,定义 为 4 ,B41)， 
Cus(G+2<7)…。 为 减少 时 间 窗 口 长 度 对 突 发 词 
识别 的 影响 ,将 每 个 样本 移 阵 的 时 间 窗 口 长 度 设置 一 
样 。 同 时 为 保证 样本 矩阵 数据 的 多 样 性 ,设置 窗口 滑 
动 闵 值 T( 即 每 次 滑动 长度 的 时 间 单 位 ) ,该 参数 可 
根据 实际 需要 进行 调整 ,如 观察 一 个 单位 年 度 内 突 发 
词 变 化 情况 可 将 了 设置 为 1, 观察 两 个 或 多 个 单位 年 
度 内 突 发 词 变化 情况 可 将 T 设 置 为 2 或 大 于 2 的 数 
值 。 为 保证 突 发 词 变 化 的 时 间 连 续 性 ,本 文 将 T 设 置 
为 1, 即 由 样本 4,,; 和 矩阵 开始 ,滑动 一 个 单位 年 度 可 依 
次 得 到 多 个 样本 矩阵 Bo ,Cwxc12"…。 同时 ,将 每 
个 样本 和 矩阵 划分 成 3 个 窗口 数据 和 抢 阵 ,以 样本 4 和 矩 
阵 为 例 ,将 i 个 单位 年 度 划 分 为 3 个 时 间 窗 口 数据 。 
时 间 在 前 的 窗口 为 标准 窗口 ,时 间 居 中 的 窗口 为 突 发 


础 一 汇 或 已 是 热点 词汇 ,不 纳入 突 发 词 分 析 范 围 。 词 
频 年 度 分 布 符合 长 尾 分 布 ”, 词 频 为 1 或 2 的 关键 记 
人 F 尾 部 , 若 多 年 内 某 个 词汇 只 出 现 过 1 或 2 次 , 则 认 
将 诈 低 频 词 不 具备 关键 词 突 发 特征 ,同样 不 纳入 突 发 
河 俏 析 范 围 。 对 排名 居中 的 关键 词 作 进一步 筛选 , 根 
振作 定 律 2 ,排名 前 20% 的 中 频 词 会 比 剩 下 的 80% 
申 频 词 更 具有 分 析 意义 ,因此 将 20% 的 中 频 词 作为 本 
突 发 词 分 析 对 象 , 构 建 关键 词 - 年度 矩阵 ,,,。 


[em Qn YQ 
TT | 本 最 . 
到 人 
© Ga 


其 中 ,m 表示 关键 词 数 ,n 表示 年 度 总 数 ,a(u = 
l,m;v=1 ,ee ,n) 表示 第 个 关键 词 在 第 v 年 出 
现 的 频次 。 


词 探测 窗口 , 称 为 观察 窗口 ;时 间 在 后 的 窗口 为 热点 主 
题 探 测 窗口 , 称 为 表现 窗口 。 将 上 述 3 个 窗口 用 符号 
分 别 定义 为 47 ,47 ,47  。 为 满足 关键 词 突 发 量变 需 
要 及 可 计算 性 ,设置 47 ,47 ,47 的 窗口 长 度 为 3 个 
单位 年 度 。 标 准 窗口 数据 是 关键 词 突 发 变化 的 比 对 标 
准 , 对 观察 窗口 内 的 数据 依据 突 发 词 特征 条 件 进 行 判 
断 , 满 足 条 件 的 关键 词 归 入 突 发 词 集合 ;将 表现 窗口 所 
有 频次 的 词汇 通过 LDA™" 分 析 挖 掘 热点 主题 ,并 设置 
靖 值 选择 每 个 主题 内 概率 值 排 在 TopN 关键 词 归 人 热 
点 词 集合 。 

以 固定 窗口 大 小 滑动 一 个 单位 年 度 ,获取 4,,、;， 
By， CnxGiry(i+2<n),3 个 样本 矩阵 的 覆盖 率 ， 
分 别 表示 为 p ,ps,pPce。 本 文 设 计 的 滑动 窗口 及 分 析 矩 
阵 如 图 1 所 示 : 


时 间 (年 份 ) 
人 观察 窗口 


〇 标准 窗口 


人 7 表现 窗口 


图 1 分 析 时 间 窗 口 划分 
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3.3 ”Step3: 探测 突 发 词 

综合 考虑 现 有 文献 的 突 发 词 特 征 指 标 , 别 除 针对 
微 博 短文 的 话题 标签 指标 ,TF-IDF 权重 指标 ” , 设 
计 并 约定 突 发 词 应 该 在 观察 窗口 内 并 满足 以 下 基本 条 
件 :中 量变 条 件 : 关 键 词 总 词 频 要 达到 一 定 的 量 ,导致 
质变 而 引起 后 续 突 发 ;@) 趋 势 条 件 :关键 词 的 词 频 逐年 
增多 , 呈 上 升 趋势 ;@ 波 动 性 条 件 :关键 词 词 频 波 动 大 ， 
区 分 度 强 。 由 于 期 刊 文献 的 更 新 周期 较 长 ,单位 年 度 
内 无 法 达到 上 述 条 件 @@ 的 标准 ,所 以 对 3 个 时 间 窗 内 
的 关键 词 词 频 分 别 求 总 和 。 依 据 上 述 基 本 条 件 设置 如 
下 启发 式 描述 量 : 

(1) 相 对 词 频 。 计 算 关 键 词 词 频 和 当前 窗口 内 最 
大 关键 词 词 频 的 比率 ,如 公式 (1) 所 示 : 


PX 表示 关键 词 四 在 对 年 内 的 相对 词 频 ,max 


口 增长 的 比率 ,如 公式 (2 ) 所 示 : 
人 
:三 其 中 ,Z 表示 关键 词 M 在 ”年 内 的 词 频 相 对 于 
了 03FE 内 的 增长 率 ,1 + 己 ovu_ 可 以 避免 前 一 个 时 间 
段 内 ,关键 词 未 出 现 导致 分 母 为 0 的 情况 。Z 考察 关 
键 词 在 水 平方 向 上 的 变化 趋势 ,Z 值 越 大 说 明 该 关键 
词 的 增长 趋势 越 明显 , 越 有 可 能 会 成 为 热点 词汇 。 
(3 ) 词 频 热度 权重 。 计 算 科技 文献 题目 中 包含 关 
键 词 的 比率 ,如 公式 (3) 所 示 : 
- 区 公式 (3) 
其 中 ,万 表 示 关 键 词 W 出 现在 题目 中 的 数量 与 当 
前 时 间 内 总 题目 数量 的 比率 , Zi|ow | 表示 题目 中 包 
含 关键 词 的 数量 ，Y tle 表示 文献 题目 总 条 数 。 妃 什 


内 按照 描述 量 排名 位 次 大 于 * 的 关键 词 岂 人 突 发 词 集 
合 T。 用 数学 符号 表示 即 : 


T= | Xi 站 Zw 站 Hi,1 (描述 量 >*) 公式 (4) 


热点 词 是 表现 窗口 内 频次 高 且 稳 定 的 关键 词 , 热 
点 词 获取 范围 应 该 大 于 突 发 词 分 析 范 围 , 以 保证 突 发 
词 在 后 续 时 间 窗 口 成 为 热点 词 的 可 能 性 。LDA 语言 模 
型 是 一 种 基于 三 层 贝 叶 斯 概率 模型 ,包含 词 .主题 
和 文档 3 层 结 构 , 是 目前 比较 成 熟 的 文档 主题 生成 模 
型 ,与 共 词 分 析 挖 气 热 点 相 比 ,LDA 具有 三 大 优势 ”: 
QD 无 需 确定 高 频 低频 关键 词 分 界线 ;@LDA 可 反映 主 
题词 之 间 深 层次 的 语义 关系 ;@@ 避 免 共 词 分 析 关 键 词 
选择 的 主观 性 。 利 用 该 模型 挖掘 出 表现 窗口 内 热点 主 
题 及 各 主题 包含 的 关键 词 , 即 本 文 需要 的 热点 词 。 

定义 文档 集合 符号 为 D = |d,,…,d,| ,d, 表示 第 p 
篇 文档 ,d, = x1 ,…,%| ,%; 表示 第 p 篇 文档 中 第 j 个 词 
汇 。 主 题 符号 为 b= | ,…,k,| ,表示 主题 内 第 o 
个 关键 词 。 热 点 关键 词 的 计算 公式 如 下 : 

P(k | d)=P(k |e)*P(eld) 公式 (5) 
其 中 ,kk, d, e 分 别 表示 关键 词 文档 主题。 依据 
公式 (5) ,得 到 文档 集合 中 主题 以 及 每 个 主题 包含 的 
关键 词 。 设 置 LDA 超 参 数 q 调整 LDA 生成 的 主题 数 
目 , 将 小 于 9q 的 主题 词汇 归 入 热点 词 集合 ,定义 热点 词 
集合 为 R。 

3.5 Steps: 模型 验证 

为 验证 模型 识别 突 发 词 效果 ,提出 覆盖 率 判 别 指 
标 , 即 选择 突 发 词 集合 和 热点 词 集合 的 共同 词汇 ,并 计 
算 相同 词汇 占 突 发 词 集合 的 比率 ,其 定义 如 下 : 


EE 公式 (6) 


Pe 

其 中 ,P 是 覆盖 率 ,覆盖 率 越 大 ,表示 观察 窗口 得 
到 的 突 发 词 与 表现 窗口 得 到 的 热点 词 对 应 程度 越 高 ， 
模型 性 能 越 好 。T,R 即 由 3.3、3.4 得 到 的 突 发 词 集合 
和 热点 词 集合 。 

为 保证 模型 在 不 同时 段 样 本 的 适用 性 ,采用 滑动 
窗口 的 方法 ,将 标准 窗口 ,观察 窗口 与 表现 窗口 往 后 移 
动 一 个 单元 ( 即 移动 1 年 ) ,保持 3 个 窗口 长 度 不 变 , 依 
据 上 述 步骤 重复 计算 覆盖 率 , 依 次 得 到 P ,ps ,pi ,根据 


a 


越 大 说 明 该 关键 词 在 题目 中 出 现 的 次 数 越 多 ,该 词 在 
当前 时 间 窗 口内 热度 越 大 ,未 来 越 有 可 能 成 为 热点 词 
因 


(4) 将 依据 描述 量 X,Z, 妞 筛选 出 的 关键 词 分 别 归 
入 突 发 词 候选 集合 Xi ,Zu , 轧 ,。 设 置 阔 值 *, 将 各 集合 


不 同样 本 的 覆盖 率 判断 突 发 词 探测 模型 的 稳定 性 。 
4 实证 分 析 


将 模型 思想 应 用 于 图 情 领域 科技 文献 突 发 词 探 
测 , 在 CNKI 上 采集 2007 -2017 年 间 18 种 CSSCI 图 情 
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度 的 突 发 词 探 测 及 验证 研究 [可 .图 书 情报 工作 ,2020 ,64(11):67 -76. 


核心 期 刊 的 文献 信息 ,每 条 数据 结构 如 下 :| 作者 , 题 

名 ,关键 词 ,年 份 | 。 按 照 图 1 分 析 时 间 窗 口 的 划分 方 

法 ,n 的 长 度 为 11 ,滑动 窗口 间隔 为 1,4,,;, Bx)， 

Cxdirn (i+2<n) 3 个 样本 和 矩阵 的 时 间 长 度 为 9。 每 

个 样本 矩阵 的 标准 窗口 .观察 窗口 .表现 窗口 的 长 度 均 

为 3。2007 -2017 年 分 析 时 间 窗 口 划 分 如 表 2 所 示 : 
表 2 分 析 时 间 窗 口 划 分 


数据 样本 标准 窗口 观察 窗口 表现 窗口 黎 盖 率 
Anxi AT! AT, 473 pA 

Bx (i+1) BT BT, BT DB 

Cx (i+2) CT CT, CTs pc 


4.1 数据 预 处 理 
初始 数据 结构 : | 题名 ,作者 ,关键 词 ,年 份 | 是 由 4 
个 5E 素 组 成 ,共计 53 221 条 记录 。 其 中 需要 处 理 的 记 
表 3 所 示 , 主 要 包括 以 下 3 类 : 中 数据 缺失 :没有 
2 和 \ 作 者 等 信息 的 记录 ;@) 非 期 刊 论文 :题名 
.举行 .委员 会 .讲话 致辞 等 词汇 的 征文 、 
了 :下 字符 :如 ;; ”和 。 使 用 Python 的 pan- 


[7 


表 3 待 处 理 的 数据 举例 

© gs 作者 关键 词 年 份 
,二 投稿 指南 文 后 参考 文献 ;稿件 类 型 ， 2017 
~ 文献 序号 

NW、 率 阅读 :概念 构建 与 ”” 李 桂 华 ; ”阅读 推广 ; ; 深 阅 读 ;; 。 ” 2017 
路 径 探索 阅读 参与 ; ;阅读 行为 


-所 按照 上 述 情况 ,删除 四 类 和 @@ 类 错误 ,整理 图 类 数 
据 中 同时 建立 同义词 表 和 停 用 词 表 ,合并 意义 相近 、 英 
语 大 小 写 . 中 莫 同 义 的 关键 词 ,将 “先生 ”“ 特 点 "“ 文 
章 " 等 没有 研究 意义 的 词汇 归 人 停 用 词 表 , 并 在 关键 词 
表 中 剔除 。 


4.2 构建 关键 词 -年 度 词 频 和 矩阵 

根据 模型 ,首先 构建 惟 , 以 关键 词 列 为 唯一 索 
引 , 以 年 度 为 列 名 ,关键 词 词 频 为 矩阵 元 素 值 。 因 为 要 
满足 关键 词 量 变 的 基础 ,所 以 吻 除 词 频 低 于 3 个 以 下 
的 关键 词 ,同时 剔除 11 年 内 一 直 排 在 词 频 前 部 的 学 科 
基础 词汇 ,如 图 书馆 、 高 校 图 书馆 、 公 共 图 书馆 等 。 在 
此 基础 上 依据 二 八 定律 ,构建 维度 是 1904 * 11 的 
有 ws。 所 选 关 键 词 占 总 词汇 的 24% ,符合 二 八 定 律 。 
整理 完成 后 的 了 ,如 表 4 所 示 ( 注 :0717 总 词 频 表 示 
某 词汇 在 2007 年 到 2017 年 间 的 词 频 和 ) 。 

表 4 ”关键 词 - 年 度 词 频 和 矩阵 


序号 关键 词 2007 年 词 频 2017 年 词 频 ”0717 总 词 频 
1 信息 服务 77 31 848 
2 知识 管理 94 20 751 
3 竞争 情报 50 21 608 
1904 链 路 预测 0 4 10 


依据 3.2, 将 表 4 的 Ff,、, 和 矩阵 按照 划分 好 的 时 间 
窗口 切割 成 3 个 样本 和 矩阵, 即 上 述 4 B41， 
Chax i42) 因为 各 样本 的 时 间 窗 口 及 计算 方 
法 一 致 ,所 以 本 文 以 样本 4 和 矩阵 为 例 进行 突 发 词 探 
测 及 验证 。 

4.3 捕获 突 发 词 

依据 3.3 ,合并 样本 4 矩阵 中 每 3 年 的 词 频 总 
和 , 即 二 ww。 参照 公式 (1) 公式 (2) 公式 (3) 分 别 计 
算出 47, 的 相对 词 频 , 词 频 增长 率 及 词 频 热度 权重 。 
经 过 实验 , 当 s =200 时 ,模型 效果 较 好 ,即将 47 窗口 
内 各 指标 排名 前 200 的 关键 词 纳 入 突 发 词 候选 
参照 公式 (4) ,计算 3 个 集合 的 交集 , 共 得 出 13 个 突 改 
词 。 突 发 词 结果 如 表 5 所 示 : 


mxi? 


(i+2<n)。 


表 5 样本 4 和 矩阵 AT, 窗口 相对 于 AT, 窗口 的 突 发 词 


关键 词 词 频 /1 年 词 频 总 和 /3 年 472 突 发 词 指标 
风 问 07 08 09 10 11 12 13 14 15 AT] AT, 473 xX 多 万 
微 博 5 15 51 65 54 47 0 71 166 0.51 71.00 7.51 
关联 数据 3 15 30 33 35 39 0 48 107 0.35 48.00 3.12 
云 计算 13 35 45 58 46 43 25 13 138 114 1.00 8.93 6.69 
突 发 事件 1 2 13 12 13 14 19 30 3 38 63 0.28 8.75 -3.87 
知识 图 谱 2 6 19 27 39 41 40 36 8 85 117 0.62 8.56 4.83 
学 科 服 1 4 6 29 31 53 59 41 36 11 113 136 0.82 8.50 7.21 
网 络 僵 情 8 20 26 好 39 67 60 8 73 166 0.53 7.22 5.80 
阅读 推广 1 部 3 6 21 28 42 44 73 55 159 0.40 7.00 4.24 
研究 热点 2 1 6 17 23 25 22 18 13 65 53 0.47 5.60 5.50 
言 息 行为 5 3 3 14 5 21 24 31 27 11 56 82 0.41 3.75 3.50 
有 务 体系 5 3 14 12 15 14 11 gl 8 41 32 0.30 3.67 7.88 
虚拟 社区 2 3 3 12 15 11 19 10 16 8 38 45 0.28 3.33 2.90 
文献 计量 分 析 1 3 4 10 18 10 6 4 7 8 38 六 0.28 3.33 3.64 
注 :07 即 2007 年 ,其 后 各 年 依 此 类 推 ;471 ,47 ,473 即 步骤 2 的 标准 窗口 .观察 窗口 表现 窗口 ;X,Z, 五 即 步骤 3 的 相对 词 频 、 词 频 增 长 率 、 
词 频 热度 权重 
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依据 模型 步 又 4, 将 原始 数据 | 题名 ,作者 ,关键 
词 ,年 份 | 中 关键 词 词 条 列 作为 LDA 挖掘 语 料 ,关键 记 
词 条 列 即 步骤 4 的 D 文档 集合 , 词 条 中 每 个 关键 词 妈 


没有 实际 意义 的 停 用 词 ,作为 LDA 模型 的 输入 文档 集 
合 。 利 用 gensim 文本 分 析 工 具 对 文本 集 进行 训练 ,经 
过 多 次 实验 ,发 现 g = 10 时 ,模型 效果 较 好 , 即 设置 主 
题 数 目 为 10 ,每 个 主题 包含 概率 值 排 前 10 的 关键 词 。 


d, = {x,,…,%;| 每 篇 文档 中 的 关键 词 。 将 47, 窗口 内 A7, 窗口 内 的 主题 词汇 如 表 6 所 示 : 
每 篇 期 刊 文献 的 关键 词 词 条 分 词 后 ,去 除 文档 集合 中 
表 6 样本 4 和 矩阵 ATs 窗口 内 的 热点 词 集合 
主题 1 E 题 2 主题 3 主题 4 主题 5 主题 6 主题 7 主题 8 主题 9 主题 10 
知识 服务 公共 图 书馆 图 书馆 可 视 化 数字 图 书馆 ”社会 网 络 分 析 ”知识 管理 本 体 高 校 图 书馆 学 科 碾 务 
竞争 情报 图 书 情 报 学 数据 库 电子 政务 信息 服务 大 学 图 书馆 知识 共享 亡 奢 雄 广 克 颖 族 情 信息 资源 
情报 学 知识 组 织 户 需 求 利 分 析 图 书馆 服务 数据 挖掘 鹿 才 社区 移动 图 书馆 图 书馆 学 引文 分 析 
云 计 算 到 书馆 员 共 建 共享 放 获 取 知识 属 凡 文本 挖掘 元 数据 信息 素养 24 学 科 馆 员 
大 数据 比较 研究 大 专 院 校 资源 建设 ” 社会 网 络 分 析 聚 类 分 析 文献 计 和 晶 学 研究 进展 ”政府 信息 资源 ”服务 模式 
图 书馆 联盟 ”图 书馆 事业 文献 传递 知识 转移 开放 存 取 共 词 分 析 信息 检索 电子 书 垦 入 式 服务 移动 服务 
年 驱 荚 计 量 网 络 社区 科技 查 新 知识 库 信息 行为 统计 分 析 等 发表 件 期 刊 评 价 ”信息 共享 空间 “学 术 影响 力 
于 尖 习 数控 信息 技术 服务 创新 机 构 知识 库 评价 指标 言 息 分 析 搜索 引擎 手机 图 书馆 参考 咨询 国际 合作 
A 源 共 享 网 络 结构 版 权 研究 禾 上 后 信息 需求 用 户 行为 知识 创新 信息 生态 信息 传播 馆藏 建设 
各 数字 资源 研究 综述 服务 质量 读者 服务 专利 信息 素养 教育 结构 方程 模型 ” 知识 地 图 学 科 化 服务 专利 地 图 
= :加 粗 斜 黑体 字 表示 突 发 词 与 热点 词 的 重生 


< 由 表 6 发 现 ,每 个 主题 均 由 10 个 关键 词 构成 。 其 
dS 主题 1 描述 云 计算 和 大 数据 在 图 书 情报 领域 内 提 
储 源 共享 和 知识 服务 的 功能 ;主题 2 描述 公共 图 书 
馆 国 知识 组 织 和 图 书馆 馆 员 及 图 书馆 的 事业 发 展 ; 主 
题 引 者 述 图 书馆 服务 ,包括 文献 传递 .科技 查 新 及 服务 
质量 ; 主题 4 描述 信息 资源 的 建设 ,包括 电子 政务 ,机 
桩 蝴 识 库 及 资源 的 开放 获取 ;主题 5 描述 信息 服务 , 包 
括 图 书馆 服务 .知识 图 谱 、 用 户 行为 及 用 户 需 求 ;主题 


es 


de dn ,包括 数据 挖 据 、 文 本 


挖 刚 、 聚 类 分 析 、 共 词 分 析 ; 主 题 7 描述 知识 共享 社区 ， 
包括 知识 管理 .知识 共享 .虚拟 社区 及 知识 创新 ;主题 
8 描述 图 书馆 阅读 推广 活动 ,以 此 提高 读者 的 信息 素 
养 ;主题 9 描述 网 络 和 与 情 的 发 展 ,包括 与 情 产 生 的 传播 
工具 一 一 微 博 及 图 书馆 服务 ;主题 10 描述 图 书 情报 领 
域 的 学 科 服 务 ,包括 学 科 馆 员 素质 的 提升 .服务 模式 的 
改进 以 及 学 术 影 响 力 。 

综 上 所 述 ,表现 窗口 关键 词 涉及 的 主要 主题 为 图 
书馆 服务 (科技 查 新 文献 传递 阅读 推广 ) ,新 兴 技术 
(大 数据 ` 云 计算 .知识 图 谱 ) ,学 科 方 法 (数据 挖掘 、 文 
本 挖掘 、 共 词 分 析 、 社 会 网 络 分 析 ) 等 ,此 外 还 有 专利 分 
析 、 信 息 素养 ,用户 需求 ,知识 库 。 

4.5 计算 突 发 词 覆 盖 率 

依据 模型 步 又 3 ,将 4.3 筛选 出 的 突 发 词 集合 与 

4.4 筛选 出 的 热点 主题 词 进行 突 发 词 覆 盖 率 计算 。 参 


了 12 、 、 
“= 计 =0.92。 该 结果 表明 在 样本 


4 矩阵 中 由 突 发 词 探 测 模型 在 AT 窗口 识别 的 突 发 
词 ,有 92% 的 准确 率 表现 在 AT, 窗口 内 。 同 时 , 突 发 
词 集合 = | 敌 咸 , 关 恬 数据 , 云 计 算 , 究 发 鼻 件 ,知识 图 
玩 , 学 表 氢 务 , 网络 终 入, 阅 恋 雄 广 , 斌 务 执 点, 户 筷 行 
为 , 碟 务 体系 , 唐 圾 社区 ,文献 计 鼻 学 | 较 全 面 地 反映 了 
热点 主题 词 (集合 7 与 集合 RR 交集 所 包含 的 元 素 , 即 
表 6 中 和 斜 黑体 字 ) 。 
4.6 滑动 窗口 分 析 

依据 分 析 时 间 窗 口 的 设置 ,重复 4.1 -4.5 的 计算 
步骤 ,依次 可 得 样本 B,、,,i) 和 矩阵 样本 C,、;,;) 和 矩阵 的 
PasPeo 

(1) 样 本 B,、;,i) 和 矩阵 中 窗口 突 发 词 集合 = | 阅读 
推广 ,移动 图 书馆 , 微 博 ,社会 网 络 分 析 , 人 免费 开放 ,可 
视 化 分 析 , 科 学 数据 ,关联 数据 ,大 数据 | ,共计 9 个 突 
发 词 。 样 本 B,、i,i) 和 矩阵 窗口 的 突 发 词 结果 如 表 7 所 
示 , 样 本 B,、,,i) 和 矩阵 中 BT, 窗口 的 主题 词汇 如 表 8 所 
小 。 


照 公 式 (6) ,P= 


由 表 8 可 以 看 出 ,主题 1 描述 情报 学 科 的 分 析 方 
法 ;主题 2 描述 信息 资源 开放 获取 及 知识 组 织 的 常用 
形式 ,包括 知识 库 、 本 体 \ 元 数据 等 ;主题 3 描述 图 书馆 
服务 内 容 及 方式 ,包括 馆藏 服务 、 推 荐 服务 、 电 子 资源 
管理 等 ;主题 4 描述 大 数据 技术 在 现代 信息 网 络 的 应 
用 ; 主题 5 描述 图 书馆 数据 库 管理 系统 及 图 情 领 域 行 
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表 7 样本 B,,、(i41) 矩阵 BT, 窗口 相对 于 BT 窗口 的 突 发 词 


词 频 /1 年 词 频 总 和 /3 年 B7, 突 发 词 指标 
关键 词 
08 09 10 11 12 13 14 15 16 BT BT, BT; x Z 万 

大 数据 9 42 68 104 140 0 51 312 0.39 51 3.3 
微 博 15 51 65 54 47 40 5 131 141 1 21 14.48 
关联 数据 3 15 30 33 35 39 45 3 78 119 0.6 18.75 4.9 
% 费 开放 1 1 20 11 10 4 1 2 41 5 0.31 13 2.76 
移动 图 书馆 1 3 4 18 22 42 40 30 33 8 82 103 0.63 8.22 3.76 
阅读 推广 2 3 6 21 28 42 44 73 82 11 91 199 0.69 6.67 7:2 
可 视 化 分 析 1 1 6 7 9 9 11 9 2 22 29 0.17 6.67 4.44 
科学 数据 2 2 7 8 26 27 28 26 6 41 81 0.31 5 3.68 
社会 网 络 分 析 3 9 18 42 42 43 51 42 32 30 127 125 0.97 3.13 2.84 


注 :08 即 2008 年 ,其 后 各 年 依 此 类 推 ;B7 ,B87, ,B73 分 别 对 应 步 又 2 的 标准 窗口 .观察 窗口 表现 窗 
频 、 词 频 增长 率 、 词 频 热度 权重 


= 题 1 主题 2 主题 3 主题 4 主题 5 主题 6 主题 7 主题 8 主题 9 主题 10 
Rr 开放 获取 图 书馆 联盟 大 数 握 图 书馆 图 书馆 服务 ”高 校 图 书馆 公共 图 书馆 数据 共享 图 书馆 学 
CN 学 云 计算 服务 质量 (24 数据 库 信息 服务 数字 图 书馆 网 络 熏 情 企业 管理 学 科 馆 员 
(0 玉 洋 准 广 本 体 馆藏 社会 网 络 分 析 版 权 高 校 图 书馆 知识 服务 情报 学 科学 数控 电子 
Gin 谱 机构 知识 库 通 检 信息 检索 。 数据 库 系 统 ”信息 素养 图 书馆 员 开放 存 取 ”图 书 情报 学 轻 子 
展厅 加 化 瑚 动 图 簿 ”个 性 化 推荐 。 社会 网 络 微 信 文献 资源 建设 。 天 丑 数 所 文献 计量 学 ”科研 数据 服务 模式 
Gi 剖 工 作 元 数据 ”电子 资源 管理 。 聚 类 分 析 信息 管理 电子 书 学 科 服 务 笑 发 政 件 ”个 性 化 服务 ”嵌入 式 学 科 服 务 
Ci 知识 组 织 研究 综述 信息 服务 比较 研究 数据 挖掘 。 学 科 馆 员 制 度 向 入 户 需求 数字 资源 
人 的 利 分 析 信息 行为 馆藏 建设 评价 指标 NISO 指标 体系 ”图 书馆 工作 人 员 。 需求 驱动 信息 资源 专利 
CST 量 。。 检索 工具 知识 转移 专著 EBSCO ”层次 分 析 法 知识 管理 学 术 思想 ”科研 数据 管理 。 信息 需求 
3 词 分 析 阅读 推广 活动 网 络 信息 资源 OCLC IMLS ODI 移动 服务 ProQuest Web2.0 SirsiDynix 


> : 突 发 记 集 全 以 加 粗 负 黑体 字 表 示 
业 轰 会 ; 主题 6 描述 高 校 图 书馆 的 信息 服务 及 读者 信 


析 的 方法 ,包括 元 数据 .协同 过 滤 、 聚 类 分 析 ; 主题 2 描 
述 云 计算 技术 在 图 情 领 域 的 应 用 及 数据 的 可 视 化 ; 主 
题 3 描述 高 校 图 书馆 馆 员 信息 素养 的 提升 及 阅读 推广 
活动 ,新 兴 在 线 学 习 空 间 一 一 茶 课 ;主题 4 描述 图 书馆 
使 用 关联 数据 数字 化 等 技术 建设 馆藏 资源 ;主题 5 描 
述 图 情 领域 新 方法 ,包括 知识 图 谱 、 社 会 网 络 分 析 ; 主 
题 6 描述 数据 开放 获取 运动 ,强调 信息 知识 化 .知识 共 
享 化 ,包括 知识 组 织 .知识 产权 、 机 构 知识 库 ; 主 题 7 描 


息 要 养 ; 主 题 7 描述 图 书馆 馆 员 及 学 科 服 务 主题 ;主题 
8 颖 六 网 络 信息 资源 的 发 展 ,包括 网 络 与 情 、 微 博 . 情 
报 学 . 突 发 事件 及 数据 资源 的 开放 存 取 ; 主题 9 描述 数 
据 共享 主题 ,包括 科研 数据 管理 和 企业 数据 管理 ;主题 
10 描述 图 书馆 学 与 其 他 学 科 的 交叉 性 ,包括 电子 、 轻 


镶 六 A 不 了 
子 等 理工 类 学 科 。 参 照 公式 (6) ,P= 了 = 二 = 


0. 89 ,结果 表明 在 样本 B, .cs 和 矩阵 中 由 突 发 词 探测 模 
型 在 B7, 窗口 识别 的 突 发 词 ,有 89% 的 准确 率 表现 在 
BT, 窗口 内 。 

(2) 样本 Cu 和 矩 阵 中 C7 窗口 突 发 词 集合 = 
| 云 肌 务 ,说 恋 摊 广 , 珍 动 图 书馆 , 戏 要 ,做 售 , 数据 管 
再, 仿效 资源 ,科学 数据 , 关 诺 数 握 ,大 数据 | ,共计 10 
个 突 发 词 。 样 本 Co 和 矩阵 C7 窗口 的 突 发 词 结 
如 表 9 所 示 , 样 本 C;、;,,) 窍 阵 中 CT 窗口 的 主题 词汇 
如 表 10 所 示 。 

由 表 10 可 以 看 出 ,主题 1 描述 信息 组 织 和 信息 分 


述 图 书 情报 学 的 基本 工作 ,包括 数据 治理 技术 数据 组 
织 技 术 ,数据 表示 技术 ;主题 8 描述 内 容 不 明显 ,涉及 
多 个 主题 词汇 ,包括 专利 分 析 、 移 动 图 书馆 等 ;主题 9 
描述 网 络 与 情 的 发 展 , 包 括 网 络 突 发 事件 .数据 挖掘 技 
术 等 ;主题 10 描述 图 书馆 阅读 推广 活动 .数字 阅读 ,全 
民 阅 读 等 服务 以 及 数据 共享 和 数据 开放 。 参 照 公式 


TNR_7 s 
(6),P= 四 =10=0.7。 结果 表明 在 样本 Caxtisa) 


和 矩阵 中 由 突 发 词 探 测 模型 在 CT, 窗口 识别 的 突 发 词 ， 
有 70% 的 准确 率 表现 在 C7, 窗口 内 。 
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表 9 样本 Ci,2) 矩阵 CT, 窗口 相对 于 CT, 窗口 的 突 发 词 


词 频 总 和 /3 年 


词 频 /1 年 CT, 突 发 指标 


关键 词 
09 10 11 12 13 14 15 16 17 CT CT2 CT73 X Z H 
大 数据 9 42 68 104 140 114 0 119 358 0.70 119.00 9.09 
微 信 7 21 24 33 el 0 28 84 0.16 28.00 3.44 
微 博 5 15 51 65 54 47 40 34 20 170 121 1.00 7.14 22.36 
数据 管理 1 2 4 9 12 他 站 24 3 25 58 0.15 5.50 3.93 
关联 数据 3 15 30 33 35 39 45 31 18 98 115 0.58 4.21 5.82 
科学 数据 2 2 7 8 26 27 28 26 24 11 61 78 0.36 4.17 5.65 
云 服 务 2 1 5 13 17 9 7 4 5 8 39 16 0.23 3.4 2.70 
馆藏 资源 1 4 1 9 5 14 8 5 1 6 28 14 0.16 3.14 2.62 
移动 图 书馆 3 4 18 22 42 40 30 33 33 25 104 96 0.61 3.04 6.14 
阅读 推广 3 6 21 28 42 44 73 82 81 30 114 236 0.67 2.71 9.09 
注 :09 即 2009 年 ,其 后 各 年 依 此 类 推 ; CT ,C7, ,C7T3 即 步 又 2 的 标准 窗口 ,观察 窗口 ,表现 窗口 ;X,Z,H 即 步 又 3 的 相对 词 频 , 词 频 增长 
率 # 闻 频 热度 权重 
a 表 10 样本 Ci42) 矩阵 CTs 窗口 内 的 热点 词 集合 
QE 十 1 主题 2 主题 3 主题 4 主题 5 主题 6 主题 7 主题 8 主题 9 主题 10 
CS 和 可 视 化 高 校 图 书馆 图 书馆 知识 图 谱 开放 获取 天数 握 专利 分 析 网 络 与 情 公共 图 书馆 
@ :we 云 计 算 竞争 情报 信息 服务 ”社会 网 络 分 析 ”大 学 图 书馆 情报 学 形 动 轿 廊 从 突 发 事件 尤 迹 舱 广 
献计 量 评价 指标 信息 素养 。 ”数字 图 书馆 引文 分 析 学 科 服 务 本 体 知识 管理 数据 挖掘 微 博 
拟 社区 出 版 物 图 书馆 员 图 书馆 学 # 词 分 析 ”机 构 知 识 库 ” 图 书 情报 学 。 信息 行为 信息 检索 数字 资源 
(指标 体系 到 书馆 联盟 阅读 推广 尖 习 雪 握 民 务 模式 。 公共 文化 服务 。 ”语义 网 社交 网 络 信息 组 织 全 民 阅 读 
CN 转移 版 权 (24 图 书馆 服务 。 社会 网 络 比较 研究 茶 课 信息 安全 专利 分 析 媒 学 数 握 
eld 文本 分 类 ”信息 素养 教育 ”资源 建设 和 户 行为 知识 产权 法 人 治理 结构 ”文献 计量 学 。 文本 挖掘 情报 分 析 
日 协同 过 滤 ”基层 图 书馆 ”结构 方程 模型 ”服务 创新 著作 权 社交 媒体 公共 文化 知识 共享 智库 数字 阅读 
和 了 网 社会 网 络 分 析 莫 课 电子 书 研究 热点 知识 组 织 情报 研究 。 ”社会 化 媒体 。 ”评价 体系 数据 共享 
BSCO 翻转 课堂 Springer PreQuest 信息 需求 智慧 图 书馆 。 情报 工作 知识 网 络 个 人 信息 开放 数据 


全 各 全 以 相思 字体 元 
4 忆 对 照 实验 

〇 为 验证 新 模型 性 能 ,采用 主流 突 发 词 探 测 工具 
Citespace 作对 照 实验 ,数据 源 和 突 发 词 探 测 时 间 段 同 


上 。 在 Citespace 软件 选择 Bursiness 检测 ,参数 设置 如 
下 :将 每 年 词 频 大 于 50 的 词汇 作为 候选 突 发 词 集 , 即 
Select Top = 50; 在 Burstness 面板 选择 词汇 最 低 突 发 
持续 时 间 为 1 年 , 即 Minimum Duration =1 ,根据 突 发 强 
度 值 排名 得 到 不 同 数据 样本 的 突 发 结果 ,2010 - 2012 
年 .2011 - 2013 年 .2012 - 2014 年 依次 对 应 表 11、 表 
12 表 13。 依 据 时 间 变 化 趋势 发 现 ,Citespace 探测 到 的 
突 发 词 包含 消亡 趋势 (如 :信息 素质 .个 性 化 服务 ) 和 
上 升 趋势 (如 ;文献 计量 学 、 共 词 分 析 ) 两 种 类 型 。 本 
研究 认为 上 升 型 突 发 词 在 未 来 更 有 可 能 成 为 研究 热 
点 ,对 学 科研 究 方向 更 具有 指导 意义 ,因此 新 模型 更 注 
重 具 有 上 升 趋势 的 突 发 词汇 。 


表 11 Citespace 在 2010 -2012 年 探测 出 的 突 发 词 
突 发 词 年 份 强度 值 ”开始 年 份 ”结束 年 份 2010 - 2012 
文献 计量 学 2010 12.4995 2011 2012 
共 词 分 析 2010 12.1187 2011 2012 PE 
统计 分 析 2010 12.1187 2011 2012 
聚 类 分 析 2010 11.738 1 2011 2012 cs 
信息 素质 2010 11.7362 2010 2010 i 
个 性 化 服务 2010 11.0805 2010 2010 i 
知识 组 织 2010 10.752 9 2010 2010 i 
信息 需求 2010 10.5969 2011 2012 1 
信息 资源 共享 “2010 9.836 7 2011 2012 
评价 指标 2010 9.7706 2010 2010 i 
服务 质量 2010 9.7706 2010 2010 i 
图 书馆 事业 2010 9.4434 2010 2010 ee 
电子 资源 2010 9.116 3 2010 2010 Es 
知识 创新 2010 8.462 4 2010 2010 re. 
9 书馆 管理 2010 6.352 8 2010 2010 ee 
社会 网 络 分 析 2010 5.837 8 2011 2012 i 
专利 分 析 2010 -3.3135 2011 2012 
隐 性 知识 2010 2.175 7 2010 2010 二 
著作 权 2010 1.8030 2010 2010 i 
开放 存 取 2010 1.606 8 2011 2012 i 
注 : 加 粗 黑 体 字 为 Citespace 突 发 词 与 热点 词 集合 重 羡 的 词汇 ， 
表 12. 表 13 同 
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度 的 突 发 词 探 测 及 验证 研究 [J]. 图 书 情报 工作 ,2020 ,64(11) :67 -76. 


表 12 ”Citespace 在 2011 - 2013 年 探测 出 的 突 发 词 
突 发 词 年 份 强度 值 始 年 份 ”结束 年 份 2011 - 2013 
信息 共享 空间 2011 12.2746 2011 2011 a 
统计 分 析 2011 11.5486 2011 2011 二 
知识 产权 2011 11.1857 2011 2011 2 
聚 类 分 析 2011 11.1857 2011 2011 = 
信息 需 3 2011 10.0980 2011 2011 PE 
电子 商务 2011 9.735 7 2011 2011 i 
信息 资源 共享 ” 2011 9.373 5 2011 2011 ee 
图 书馆 管理 2011 9.373 5 2011 2011 人 
知识 转移 2011 9.113 4 2011 2011 i 
著作 权 2011 9.061 2 2012 2013 a 
比较 研究 2011 9.061 2 2012 2013 二 
隐 性 知识 2011 8.697 2 2012 2013 0 
元 数据 2011 8.333 4 2012 2013 
2011 6.949 1 2011 2011 i 
2011 4.657 9 2011 2011 
2011 2.993 4 2011 2011 i 
2011 2.604 5 2011 2011 PP 
2011 2.402 5 2011 2011 去- 
2011 2.140 6 2011 2011 = 
2011 1.8917 2011 2013 PE 
2011 1.827 7 2011 2011 和 
2011 1.753 3 2012 2013 人 
2011 1.702 7 2011 2011 i 
年 份 强度 值 始 年 份 、 结 束 年 份 2012 - 2014 
2012 11.2629 2012 2012 RE 
2012 10.8977 2012 2012 ee 
2012 10.7276 2013 2014 i 
2012 9.802 8 2012 2012 PP 
2012 9.073 5 2012 2012 es 
科技 查 新 2012 9.073 5 2012 2012 EE 
比较 研究 2012 9.073 5 2012 2012 语 
隐 性 知识 2012 8.709 0 2012 2012 EL 
元 数据 2012 8.344 7 2012 2012 和 
数据 库 2012 4.056 8 2012 2012 ES 
学 科 馆 员 2012 2.875 5 2012 2012 
信息 资源 2012 2.254 5 2012 2012 EL 一: 
资源 共享 2012 2.014 2 2012 2012 下 过- 
信息 检索 2012 1.984 2 2012 2012 es 
知识 组 织 2012 1.854 4 2013 2014 二 
电子 政务 2012 1.577 3 2012 2014 i 
开放 获取 2012 1.4949 2013 2014 i 
评价 指标 2012 1.395 3 2013 2014 ed 


参照 公式 (6) ,将 两 种 方式 探测 出 的 突 发 词 2 


> 


别 


与 热点 词 计算 覆盖 率 ,计算 结果 见 表 14。 


观察 结果 发 现 ,新 模型 在 3 个 数据 样本 上 的 突 发 
词 覆 盖 率 均 大 于 Citespace 分 析 结 果 , 从 而 表明 新 模型 
比 Citespace 性 能 更 好 。 

表 14 新 模型 与 Citespace 突 发 词 探 测 的 覆盖 率 


数据 样本 突 发 时 间 段 新 模型 Citespace 
Anm xi 2010 -2012 ll13=0% 12/20 =0.6 

Byxtirly 2011 -2013 8/9 =0. 89 11323=0.37 

Cnwtira) 2012 -2014 7/10 =0.7 9718 =0.5 


以 上 分 析 表 明 本 研究 设计 的 突 发 词 探测 模型 能 
效 发 现 潜在 研究 热点 ,为 科研 工作 者 把 握 发 展 趋势 , 捕 
捉 研 究 热点 提供 精准 服务 。 


S 结语 


提出 多 测度 的 罕 发 词 探 测 及 验证 模型 ,以 2007 - 
2017 年 图 情 领 域 18 种 核心 期 刊 的 文献 信息 作为 数据 
来 源 , 国 定 9 年 为 一 个 分 析 时 间 窗 口 ,3 次 滑动 时 间 窗 
口 ,每 个 窗口 又 细 分 为 标准 窗口 .观察 窗口 ey 口 。 
依据 相对 词 频 、 词 频 增长 率 、 词 频 热度 权重 识别 观察 窗 
口内 的 突 发 词 ;通过 LDA 挖 所 表现 窗口 主题 词 ， 
并 计算 突 发 词 覆盖 率 。 结 果 3 个 时 间 徐 口内 的 覆盖 率 
ee 70% ,设计 的 模型 能 有 效 捕 换 突 发 词 ,发 现 研 
究 热点 。 本 模型 与 Citespace 突 发 词 探测 工具 对 照 实 
验 中 , 突 发 词 覆 盖 率 优 于 后 者 ,说 明 本 研究 工作 有 价 
值 。 

本 文 研 究 还 存在 一 些 不 足 , 也 是 未 来 研究 的 重点 : 
QD 突 发 词 识别 条 件 的 改进 ,提高 突 发 词 识别 的 准确 度 ; 
GO 改进 模型 验证 方式 ,现在 突 发 词 和 热点 词 匹配 的 关 
系 是 一 对 多 ,未 来 研究 将 改 为 一 对 一 ;@ 运 用 其 他 方 
法 ,如 LDA2Vec、Word2Vec、Coder-autoencoder 等 深度 
学 习 方 法 进行 多 热点 对 照 分 析 , 寻 找 最 佳 应 用 。 
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Abstract: | Purpose/significance | In order to effectively detect potential research hotspots in scientific and 


technological literature, to study the characteristic conditions of keyword emergencies in the literature, and to con- 


struct a model of burst word recognition is of great significance to promote scientific researchers to accurately grasp the 


research direction. | Method/ process | This paper got keywords and word frequency in each year, constructed key- 


word-year matrix, divided the analysis period into standard window, observation window and performance window, 


used multi-measure burst word detection model to identify keywords with burst characteristics in the observation win- 


dow, and used LDA to mine topic words as hot words set in the performance window. The coverage index of burst 


words was designed, and the sliding time window method was used to calculate the coverage of burst words and hot 


words in different time windows to verify the accuracy of model recognition. | Result/conclusion | The three sliding 


time windows calculated that the coverage of the three sudden words is more than 70%. In the control test with 


Citespace, the coverage of the model three times is greater than the former, indicating that the designed burst word 


detection model performs well. 


Keywords: burst word detection 


sliding time window multiple measures 


LDA topic mining 
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